input_file=$1

base_name=$(basename "$input_file" | sed 's/\.[^.]*$//')

output_folder="${base_name}/images"


img2dataset --url_list $input_file --input_format "parquet" \
    --url_col "image_url" --caption_col "caption" \
    --output_folder $output_folder --processes_count 16 --thread_count 64 --resize_mode=no
